Gambaran Umum dan Lanskap Evolusi Arsitektur

Kita beralih dari keberhasilan dasar AlexNet menuju era jaringan saraf dalam yang sangat dalam Jaringan Saraf Konvolusional (CNNs). Perpindahan ini mewajibkan inovasi arsitektur yang mendalam untuk mengelola kedalaman ekstrem sambil tetap menjaga stabilitas pelatihan. Kita akan menganalisis tiga arsitektur penting—VGG, GoogLeNet (Inception), dan ResNet—memahami bagaimana masing-masing menyelesaikan aspek-aspek berbeda dari masalah skalabilitas, membentuk dasar bagi interpretasi model yang ketat di pertemuan selanjutnya.

1. Kesederhanaan Struktural: VGG

VGG memperkenalkan paradigma memaksimalkan kedalaman menggunakan ukuran kernel yang sangat seragam dan kecil (secara eksklusif filter konvolusional 3x3 bertumpuk). Meskipun secara komputasi mahal, keseragaman struktur VGG membuktikan bahwa kedalaman mentah, yang dicapai melalui variasi arsitektur minimal, merupakan pendorong utama peningkatan kinerja, memperkuat pentingnya bidang tanggapan kecil.

2. Efisiensi Komputasi: GoogLeNet (Inception)

GoogLeNet mengatasi biaya komputasi tinggi VGG dengan menekankan efisiensi dan ekstraksi fitur multi-skala. Inovasi intinya adalah Modul Inception, yang melakukan konvolusi paralel (1x1, 3x3, 5x5) dan pooling. Secara krusial, modul ini menggunakan konvolusi 1x1 sebagai bottleneck untuk secara dramatis mengurangi jumlah parameter dan kompleksitas komputasi sebelum operasi yang mahal.

Tantangan Teknik Utama

Residual Learning: ResNet

ResNet solved the degradation problem by introducing the identity mapping (skip connection). This non-sequential shortcut allows the network to learn a residual function $F(x)$ instead of a direct mapping $H(x)$, effectively ensuring that adding more layers can only improve or maintain performance, dramatically improving optimization stability.

Diagram showing a ResNet skip connection architecture

Question 1

Which architecture emphasized structural uniformity using mostly 3x3 filters to maximize depth?

AlexNet

VGG

GoogLeNet

ResNet

Question 2

The 1x1 convolution is primarily used in the Inception Module for what fundamental purpose?

Increasing feature map resolution

Non-linear activation

Dimensionality reduction (bottleneck)

Spatial attention

Critical Challenge: Vanishing Gradients

Engineering Solutions for Optimization

Explain how ResNet’s identity mapping fundamentally addresses the Vanishing Gradient problem beyond techniques like improved weight initialization or Batch Normalization.

Describe the mechanism by which the skip connection stabilizes gradient flow during backpropagation.

Solution:
The skip connection introduces an identity term ($+x$) into the output, creating an additive term in the derivative path ($\frac{\partial Loss}{\partial H} = \frac{\partial Loss}{\partial F} + 1$). This term ensures a direct path for the gradient signal to flow backwards, guaranteeing that the upstream weights receive a non-zero, usable gradient signal, regardless of how small the gradients through the residual function $F(x)$ become.